* 

Предмет математической статистики

 

          Математическая статистика - раздел математики, посвященный методам систематизации, обработки и использования данных, изучения закономерностей массовых явлений и их взаимосвязей. Задача математической статистики состоит в том, чтобы по результатам ограниченного числа наблюдений за массовым явлением составить представление о законе его осуществления с целью последующего прогнозирования. Теория вероятностей является логической основой математической статистики, она дает возможность осмысления и интерпретации выводов, полученных исходя из экспериментальных данных.

          Например, выбрав наудачу изо всей партии деталей, изготовленных неким предприятием, лишь некоторую их совокупность и проверив их качество по одному или нескольким признакам, можно сделать выводы о качестве всей партии в целом, указав при этом пределы возможных отклонений  от характеристик, полученных на основе данных эксперимента (выборочных данных).

         

Следующие задачи математической статистики являются основными:

          а) описание в той или иной целесообразной форме данных, полученных в результате эксперимента;

          б) описание закона распределения исследуемого признака или признаков во всей совокупности изучаемых явлений (генеральной совокупности), в частности, оценивание ее числовых характеристик (средних, дисперсий и т. д.);

          в) описание взаимосвязей между различными признаками различных массовых явлений, изучаемых совместно: установление формы связей, их степень и пр.;

          г) проверка гипотез о виде искомого распределения или, если такой вид предполагается известным из предыдущего опыта, о значениях параметров, его определяющих.

          Методы математической статистики используются при решении задач планирования и организации промышленного производства, при анализе демографических, социальных и экономических процессов, при контроле качества выпускаемой продукции, исследовании надежности функционирования сложных технических систем и систем управления.

          При этом математическая статистика не дает рекомендаций касательно интерпретации числовых результатов обследования выборочных данных. Последнее есть задача и прерогатива тех конкретных отраслей знания, в которых используются эти результаты.

Некоторые понятия и процедуры описательной статистики

          Исходными понятиями математической статистики являются понятия генеральной совокупности и выборки. Под генеральной совокупностью понимают множество всех реально существующих или даже только  мыслимых однородных объектов, изучаемых с некоторой общей точки зрения. Например, изучая длительность телефонного разговора, под генеральной совокупностью следует понимать множество всех абонентов телефонной сети данного района, города, области в зависимости от решаемой задачи. Это понятие, следовательно, необходимо уточнять в каждой конкретной задаче. Мы будем считать в дальнейшем, что каждый элемент генеральной совокупности описывается одной или несколькими числовыми характеристиками. С теоретико-вероятностной точки зрения генеральной совокупности  ставится в соответствие  случайная величина или случайный вектор.

          Изучение всей генеральной совокупности возможно лишь при небольшом ее объеме и умеренных затратах, которых оно требует. Вместо полного изучения на практике прибегают к изучению только ее части, называемой выборкой.

          Так, в указанном выше примере реально возможно фиксировать длительности телефонных разговоров некоторого конечного числа (n) клиентов, получая при этом набор чисел  - длительностей разговоров, в самом деле наблюдавшихся.

          В силу упомянутого выше соответствия выборку реальных (физических) объектов будем отождествлять с набором  скаляров или векторов, каждый член которого есть результат наблюдения над характеристиками первого, второго ... объектов выборки.

          Как уже говорилось, генеральной совокупности ставится в соответствие случайная величина или случайный вектор x. Поэтому выборке следует ставить в соответствие набор значений, принятых случайной величиной (вектором) x после n-кратного наблюдения: . Имея в виду то обстоятельство, что при теоретическом изучении статистических процедур выборочные значения следует считать неизвестными и непредсказуемыми, выборку до ее осуществления на практике понимают как конечную последовательность случайных величин или векторов (), таких, что:

·     а)  - независимы в совокупности;

·     б)  (i-й член выборки) имеет тот же закон распределения, что и генеральная совокупность x , i =1,2,...,n.

          Указанные предположения а), б) касательно выборки диктуются существом дела: результат наблюдения над любым членом выборки не должен влиять на прочие результаты, если мы хотим изучать генеральную совокупность в «чистом виде», и каждый член выборки должен нести в себе ту же информацию, что и генеральная совокупность в целом.

          Итак, следует различать два случая употребления понятия «выборка»:

·      выборка теоретическая, а priori, как конечная последовательность случайных величин или векторов  ();

·      выборка статистическая, а posteriori, как конечная последовательность значений (), принятых в результате эксперимента элементами теоретической выборки.

          В настоящем разделе мы будем иметь в виду выборку статистическую, каждый член которой - скаляр (одномерную статистическую выборку). Для сокращения речи будем говорить «выборка».

          Исходным материалом любого статистического рассуждения есть выборка

                                                ,                                                (18.1)

число n называется ее объемом. Для получения содержательных и надежных выводов желательно объем выборки делать как можно большим. При этом получаемые числовые данные могут стать труднообозримыми. С целью облегчения усвоения информации, содержащей в выборке, ее подвергают различным преобразованиям.

          Целесообразно прежде всего выборочные данные ранжировать, располагая их в порядке возрастания и приходя в результате к вариационному ряду:

                                      ,                                            (18.2)

где  - наименьшее,  - наибольшее из чисел (),  - i-е по величине. При этом может случиться, что количество различных членов в вариационном ряду окажется меньше объема исходной выборки (равенство членов выборки не исключается). В этой ситуации данные представляют в виде группированного вариационного ряда таблицей

 

                                ,                               (18.3)

 

где  - различные члены вариационного ряда (),  - количество повторений чисел  в вариационном ряду - частоты, .

          Пример 18.1. Страховая компания, занимающаяся обязательным страхованием гражданской ответственности транспортных средств, имеет в своем распоряжении данные о количестве дорожно-транспортных происшествий на протяжении 56 равных непрерывающихся промежутков времени

5, 1, 4, 5, 4, 3, 5, 5, 2, 5, 5, 6, 4, 3, 1, 5, 2, 5, 5, 5, 3, 3, 3, 6, 6, 5, 6, 5, 3, 4, 5, 4, 6, 6, 5, 2, 1, 5, 4, 5, 5, 3, 6, 4, 5, 5, 4, 3, 5, 5, 5, 4, 5, 4, 2, 4, 5, 6, 1, 5.

          Составим вариационный ряд

и группированный вариационный ряд

Таблица 18.1

(Данные о числе ДТП)

 

 

 

þ   На практике эти две операции при обработке информации вручную объединяют в одну, составляя таблицу

 

         

 

 

 

В случае, если объем выборки совпадает с объемом вариационного ряда (n = k), группировка данных может производиться не по самим значениям вариант, а группировкой их в интервалы. Для этого

·     а) определяют размах выборки: ;

·     б) определяют шаг выборки, пользуясь формулой Стэрджеса

                                      ;                                                    (18.4)

·     определяют начало первого интервала, а1, полагая а1= (Хmin - h/2), а2= a1+h/2, а3= а2+h, ... и т.д. до тех пор, пока аk впервые не станет больше Хmax. Далее считают  - количество , попавших в i интервал.

          Впрочем, эти рекомендации следует применять, сообразуясь с удобствами вычислений и дальнейшего графического представления данных.

Пример 18.2. Руководитель офиса заинтересовался длительностью междугородных телефонных разговоров, имевших место в течение одной недели. Ему представили данные, зафиксированные номеронабирателем (в минутах)

11,8

3,6

16,6

13,5

4,8

11,2

10,4

7,2

5,5

14,5

8,3

8,9

9,1

7,7

2,3

8,5

15,9

18,7

11,7

6,2

12,1

6,1

10,2

8,0

11,4

6,8

9,6

19,5

15,3

12,3

 

          Представим эти данные в виде интервального вариационного ряда, определив:

·     а) размах выборки  = 19,5 - 2,3 = 17,2;

·     б) шаг группировки  2,912 (полагаем h = 3);

·     в) начало первого интервала а1 = 2,3 - 1,5 = 0,8 (полагаем а1 =1).

          Строим интервальный вариационный ряд

 

 

 

 

          Те же данные, сгруппированные с а1 = 2, приведут нас к иному интервальному вариационному ряду

Таблица 18.2

(Данные о длительности разговоров)

 

         

 

Для оценки количества интервалов группировки в зависимости от объема выборки можно пользоваться следующей таблицей:

Объем выборки, n

менее 50

50 - 200

200 - 500

500 - 1000

Количество класов, k

5 -7

7 - 9

9 - 10

10 - 11

 

          Числа ni в табл. 18.1 или аналогичные им в интервальном вариационном ряду (табл. 18.2) носят название частот соответствующих членов или интервалов вариационного ряда.

 

          Числа

                                                                             (18.5)

называют относительными частотами или частостями,

          числа

                                                                                       (18.6)

и

                                                                                      (18.7)

носят соответственно название накопленных частот и накопленных частостей.   u

          Вычисление чисел  предшествует графическому представлению  данных.

 

Графическое представление вариационных рядов

 

          Пример 19.1. По данным примеров 18.1 и 18.2 построим таблицы, содержащие частоты и частости.

Таблица 19.1

(Данные о числе ДТП)

i

xi

ni

ni*

wi

wi*

1

1

4

4

0,07

0,07

2

2

4

8

0,07

0,14

3

3

8

16

0,14

0,28

4

4

10

26

0,19

0,47

5

5

22

48

0,39

0,86

6

6

8

56

0,14

1,00

Сумма

 

56

 

1,00

 

 

Таблица 19.2

(Данные о длительности разговоров)

i

Интервалы

ni

ni*

wi

wi*

1

2;  5

3

3

0,10

0,10

2

5;  8

6

9

0,20

0,3

3

8;  11

8

17

0,27

0,57

4

11;  14

7

24

0,23

0,80

5

14;  17

4

28

0,13

0,93

6

17;  20

2

30

0,07

1,00

Сумма

 

30

 

1,00

 

 

          Полигоном частот (частостей) называют кусочно-линейную ломаную с вершинами в точках , где хi* - середины интервалов в случае интервального вариационного ряда.

 

 

          На рис. (19.1а), (19.1б), (19.2а), (19.2б) показаны полигоны и гистограммы частот и частостей, построенные по данным табл. (19.1) и (19.2)

 

 

                             Рис. 19.1а

Рис. 19.1.б

 

Рис.19.2.а

 

                             Рис.19.2.б

 

          Огивой или кумулятивной кривой накопленных частостей называют ломаную, построенную по точкам (), соответственно по точкам ().

 

 

Рис. 19.3

 

 

Рис. 19.4

 

          На рис. 19.3 и 19.4 показаны огивы, построенные по табл. 19.1 и 19.2 соответственно.   u

         

Первоначальное табличное или графическое представление выборочных данных сопровождают вычислением некоторых числовых характеристик.

 

Числовые характеристики вариационных рядов

 

          Для единообразия формул будем обозначать хi выборочное значение независимо от того, в каком из вариационных рядов оно находится.

 

·     Начальным выборочным моментом порядка r называют число

.

·     Центральным выборочным моментом порядка r называют число

 .

          Моменты порядков r = 1  и  r = 2  наиболее употребительны и носят специальные названия и обозначаются особо.

          Момент m1 (порядка 1) обозначается  и носит название выборочного среднего

          Свойства выборочного среднего аналогичны свойствам математического ожидания, одно из них выглядит так:

                                                .                                          (20.1)

          В самом деле, значения вариационного ряда для выборки из генеральной совокупности аx + b будут таковы: ; частоты при этом остаются теми же. Поэтому

.

          Центральный момент порядка 1 всегда равен 0. Центральный момент порядка 2 называют выборочной дисперсией и обозначают :

.

          Свойства выборочной дисперсии аналогичны свойствам дисперсии. Например,

                   .                                                                             (20.2)

 

          В самом деле,

 

          При вычислении на практике удобно пользоваться такой формулой:

 

                             .                                    (20.3)

 

          Закончим этот параграф вычислением числовых характеристик количества дорожно-транспортных происшествий, сведя все вычисления в таблицу.

Таблица 20.1.

(Числовые характеристики количества ДТП)

i

xi

ni

xini

xi2

xi2ni

1

1

4

4

1

4

2

2

4

8

4

16

3

3

8

24

9

72

4

4

10

40

16

160

5

5

22

110

25

550

6

6

8

48

36

288

Суммы

 

56

234

 

1090

 

 

          Теперь вычисляем

                            

u

 

          Соответствующие вычисления для данных из примера 18.2 таковы:

Таблица 20.2.

(Числовые характеристики длительности разговоров)

 

i

xi

ni

xini

xi2

xi2ni

1

3,5

3

10.5

12.25

36.75

2

6,5

6

39.0

42.25

253.50

3

9,5

8

76.0

90.25

722.00

4

12,5

7

87.5

156.25

1093.75

5

15,5

4

62.0

240.25

961.00

6

18,5

2

37.0

342.25

684.50

Суммы

 

30

312

 

3751.5

 

          Теперь получаем

 

          Здесь для вычисления в качестве  используют представителя интервала, например, среднее значение интервала.

u